哪个蛋白质调控我感兴趣的基因?怎样筛选?基于分析或实验的可行方案V2.1
谁来调控我感兴趣的DNA?100%可行的全面解决方案V2.0。
上周发的V2.0,这么快就更新到V2.1了?因为小哈最近更新了一下脑中的ENCODE知识体系,得益于ENCODE的会议视频和小伙伴分享的国内培训班视频,表观遗传小白逆袭之道:从这 19 个视频开始吧!尤其是岳峰老师的两个视频,受益匪浅。
这次主要更新了ENCODE的查询方案。以前ENCODE自己的网站功能不强大,需要去UCSC上检索,而且数据量太少。现在,已经积累到7813套ChIP-seq数据,能从ENCODE网站www.encodeproject.org把100套以内的数据提交给UCSC,进行可视化。如果需要100套以上的数据,还能方便的批量下载。
本文关心的是直接调控,即哪个蛋白结合在我感兴趣的基因上游。研究哪个蛋白质结合某段DNA,介绍三种screen的有效方法:
Plan A:基于大量ChIP-seq公共数据挖掘
Plan B:motif分析预测
Plan C:ATAC-seq结合motif分析
Plan A:基于大量ChIP-seq公共数据
一套ChIP-seq数据只能看一个蛋白质调控哪个靶基因。转录因子调控了谁?100%可行的完整解决方案V2.0。如果有大量ChIP-seq数据,就能看到哪个蛋白质调控某个基因。
目前全世界已发表人和小鼠的2万多套ChIP-seq数据,包含800多个TF,把这些ChIP-seq数据放在一起,就能看到基因组的每个位置都结合了哪些TF。
大量的ChIP-seq数据去哪里找呢?
收录ChIP-seq数据最全的数据库Cistrome Data Browser,需要一点点linux基础,批量下载和处理Cistrome Data Browser数据;
ChIP实验质量最好的ENCODE项目。
下面介绍这两个数据来源的检索方法:
1. Cistrome Data Browser
Cistrome Data Browser收录了目前已发表的2万多套人和小鼠的ChIP-seq、DNase-seq、ATAC-seq数据。可以单个查看某个转录因子调控的靶基因,详见转录因子调控了谁?
最近开始提供批量下载功能,http://cistrome.org/db/#/,我们就可以从大量的ChIP-seq数据里找到:哪套数据的Factor结合了我感兴趣的DNA区段。
点击右上角的“Batch download”,填写课题组信息,勾选要下载的数据类型
承诺提交的信息正确,不会把下载到的数据交给别人,发表文章的时候引用该论文。输入校验码,点击最下面的按钮,就开始下载了。
用bedtools找出感兴趣的基因附近有结合信号peak的ChIP-seq数据,对应到TF名字,就推测出哪些TF结合了感兴趣的基因。bedtools的用法满天飞,小哈在这里不啰嗦。其实只需要一点点linux基础,纸老虎,不用怕。
2. ENCODE
ENCODE项目进展到今天已经产生了7813套ChIP-seq数据,其中人的5568套,小鼠1086套。检索方法参考表观遗传系列视频17 | Penn State 岳峰:ENCODE & Roadmap workshop(附PPT)。另外,还有平行项目,例如模式生物modENCODE和modERN项目,以后小哈会发帖分享使用心得。
人,除组蛋白以外,转录因子等factor的ChIP-seq数据2191套,包含620个factor。
目前可以最多添加100套数据到UCSC genome browser里面查看某段DNA上的peak分布。
例如,在Biosample type里选择stem cell,一共86套数据
点击Visuallize
选择hg19,数据更全。后面再check一下GRCh38版本的基因组在你关心的区域上是否有更新。
打开后看到所有86套数据都展示出来了,在位置框里输入您想看的区段,或基因名字,例如sox2,然后zoom out 10x看更大的区域。好多小矩形的那行就是call出来的peak,下面紧挨着那行是原始信号强度。用眼睛看哪个factor在sox2 TSS附近有peak,推测该factor对sox2的转录有调控作用。
继续往下滚动页面,还能看到该区域存在哪些TF的motif,详见下文Plan B。
如果不想用眼睛看100套以内的数据,而是要从所有的ChIP-seq数据中找到结合某段DNA的factor,需要批量下载:
下载后的数据处理类似于前面讲的Cistrome Data Browser。
该方法的优点是,找到的TF跟DNA的结合关系是有in vivo实验证据的;缺点是,基因的转录调控有着组织特异性,在这套ChIP-seq数据的细胞类型和处理条件下不结合,不代表你关心的细胞类型或处理条件下也不结合,有可能真就能结合呢!反之亦然。
Plan B:基于motif预测
通过motif预测DNA上可能会有哪些转录因子结合。每个转录因子都有一个DNA结合结构域(DBD),喜欢结合在特定DNA序列上,也就是motif。如果我感兴趣的基因上游DNA有某个TF的motif,那么该TF就有可能结合这段DNA,从而调控下游基因表达。
书接上文Plan A的ENCODE数据检索。向下滚动鼠标,找到Regulation,点击TFBS Conserved,full,refresh
refresh后,那些段竖线就是该区域存在的TF的motif,TF名字在左侧
V$和_之间的就是TF名
点击名字,出现motif信息
该方法的缺点是,就算在DNA序列上找到了TF对应的motif,该TF不一定真的就能in vivo结合这段DNA。不过,这起码提供了一条线索,让你有迹可循,看到了某个感兴趣的TF的motif,就做个ChIP-qPCR验证一下吧!
Plan C:ATAC-seq结合motif分析
调控蛋白所结合的DNA附近会形成open区域,产生DHS。2013年,Howard Y Chang发明了ATAC-seq。详见从第一篇文章开始,讲讲ATAC-seq能干啥?类似于DNase-seq,ATAC-seq能够找出基因组上的open区,根据这段区域上的motif,推测它上面可能结合的TF。ATAC-seq用的细胞数更少,500-50,000个细胞就能做,实验更稳定。有了ATAC-seq的加入,把motif预测出来的候选TF范围缩小到染色质开放区域,结果更准确。
还记得Howard Y Chang吗?美帝国自然NIH资助啥?一文中看到,他凭《lncRNA在癌症中的作用机制》一项拿到$724,705,相当于人民币400多万,该项目已经发表2篇paper,一篇Single cell,一篇CRISPR screen。我们站在大牛肩上,紧跟大牛节奏,就能赶在上升期,抓紧时间轻松发一区;否则,邻居大妈都知道ATAC-seq的时候。。。
您可能还想看:
Factorbook | 翁志萍 | ChIP-seq in ENCODE
想用ChIP-seq、ATAC-seq实验研究感兴趣的基因?想用已发表的ChIP-seq、eCLIP-seq、ChIA-PET、DNA甲基化测序、RNA-seq数据寻找线索?找嘉因生物吧!从实验、测序,到多种数据整合分析,为您一站式解决。(点击文中蓝字了解详情)
嘉因生物公众号定位:客户共性问题解答,生信学习资源导航,高通量实验导购 | 为您提供高通量实验-测序-分析-验证一站式解决方案
电话:021-61539657
Email:marketing@rainbow-genome.com
地址:上海市杨浦区赤峰路65号同济科技园1号楼611室